Поиск по сходству (BLAST)

Задание 1. Определение таксономии и функции нуклеотидной последовательности.

Для выполнения задания была использована консенсусная последовательность из практикума 6. Чтобы найти похожие последовательности(см.картинку) я воспользовалась BLASTn.

Консенсусная последовательность

Для определения таксономии я перешла в раздел Taxonomy и посмотрела на предложенные варианты. Заметим, что самый большой показатель Score имеет вид Brada. А также у Brada inhabilis наибольший %identity.

Судя по выравниванию, может определить, что последовательность аналогична(за исключением неопределнных хроматограммой нуклеотдов) Brada inhabilis.

Воспользовавшись BLASTx, можно сделать вывод, что последовательность содержит ген гистон H3.

Задание 2. Сравнение алгоритмов BLAST.

В этом задании требуется сравнить megablast, blastn с параметрами по умолчанию и blastn с самыми чувствительными настройками. Чувствительные настройки-word size и mismatch score. В качестве ограничения поиска я выбрала семейство Flabelligerida.

1)При запуске измененного blastn получается 22 находки. Среди них есть и те, у которых E-value>>0.001 (например равное 7.2)

2) Blastn выдает 13 находок, причем ни у одной теперь нет E-value=0.0 и максимальное значение снизилось хотя бы до 4.8.

3) В megablast 9 находок, но с меньшим значением E-value чем в blastn.


Алгоритм	Параметры	Число находок
megablast	Автоматические Длина слова = 28; Match/Mismatch scores 1, -2	9
blastn	Автоматические Длина слова = 11; Match/Mismatch scores 2, -3	13
blastn с изменениями	Изменённые Длина слова = 7; Match/Mismatch scores 1, -4	22

Таким образом можно сделать вывод, что что megablast выдаёт более сходные последовательности, чем blastn, что можно сказать и про blastn чувствительный(видим e-value=0), но в отличие от него не выдает последовательности с высокими значениями E-value, что означает отсутсвтие недостоверных находок megablast. Плюс еще megablast работает быстрее других.

Теперь тоже самое проделаю с CDS вируса Microbacterium phage TeddyBoy из практикума 7.

Blastn обычный выдает много находок (155), но больше половины из них недостоверны(e-value>>0.001) (поиск ограничила семейством Siphoviridae)

Blastn с измененными параметрами выдает 90 находок, появились последовательности с e-value=0.0, но число недостоверных все еще примерно половина.

Megablast выдал 24 находки. Нет e-value>>0.001, т.е. все находки достоверные. Снова делаем вывод, что megablast самый удобный для поиска достоверных находок


Алгоритм	Параметры	Число находок
megablast	Автоматические Длина слова = 28; Match/Mismatch scores 1, -2	24
blastn	Автоматические Длина слова = 11; Match/Mismatch scores 2, -3	155
blastn с изменениями	Изменённые Длина слова = 7; Match/Mismatch scores 1, -4	90

Задание 3. Гомологи трёх белков в неаннотированом геноме

Теперь нужно проверить есть ли гомологи белков в геноме организма Amoboaphelidium protococarum (сборка генома в файле на kodomo /P/y18/term3/block2/X5.fasta). Для этого я выбрала три белка, которые точно есть у эукариот: актин(ACT_YEAST), гистон H3 (H3_CAEEL), тубулин(TBB2_CAEEL). Последовательности я получила из RefSeq.

Я использовала Blast+. Первым шагом было создать локальную базу данных. Запрос: makeblastdb -in X5.fasta -dbtype nucl.

Для поиска гомологов я пользовалась tBlastn. Запрос: tblastn -query tubulin.fasta -db X5.fasta -out tubulin.out

Покрытие я посчитала вручную (можно поделить длину лучшего выравнивания на длину белка).

1)Для тубулина получилось: Score = 729 bits (1882), Expect = 0.0, Identities = 371/455 (82%), Positives = 413/455 (91%), Gaps = 22/455 (5%), Frame = -2, Query Cover=96,2%

Судя по значениям,в том числе высокому query cover, можно говорить о гомологии этого белка

2)Для актина получилось: Score = 721 bits (1861), Expect = 0.0, Identities = 333/375 (89%), Positives = 363/375 (97%), Gaps = 0/375 (0%), Frame = -2 , Query cover= 83,3 %.

Можно предположить, что белки гомологичны, но по данным параметрам сходства точно судить мы не можем.

3)Для гистона H3 получилось: Score = 241 bits (615), Expect = 2e-73, Identities = 124/136 (91%), Positives = 127/136 (93%), Gaps = 1/136 (1%), Frame = -3, Query cover= 30%.

В этом случае и по e-value и по query cover можно предположить, что белки негомологичны.

Задание 4. Поиск гена белка в контиге.

Я взяла скэффолд из организма Amoeboaphelidium protococcarum.

Команда для получения информации о длине контигов: infoseq X5.fasta -only -name -length. Я выбрала scaffold-258 длиной 99209 нуклеотидов(seqret X5.fasta:scaffold-258 -out sc258.out).

Используя blastx, я ограничила поиск царством Fungi (тк мы знаем что организм пренадлежит ему) и выбором находок в refseq.

Результаты поиска представлены на картинке. Можно предположить, что ген кодирует coatomer субъединицу альфа.